Apache Kylin 和 Apache Doris 都是优秀的开源OLAP系统,本文将全方位地对比Kylin和Doris。 本文对Apache Doris的理解基于官方文档和论文的阅读,代码的粗浅阅读和较深入地测试。 注: 本文的对比基于Apache Kylin 2.0.0 和Apache Doris 0.9.0。 1.2 What is Doris Doris是一个MPP的OLAP系统,主要整合了Google Mesa(数据模型),Apache Impala(MPP Query Engine)和Apache ORCFile 下面我们来看下Doris Segment文件的具体格式,Doris文件格式主要参考了Apache ORC。 14 总结 本文从多方面对比了Apache Kylin和Apache Doris,有理解错误的地方欢迎指正。本文更多的是对两个系统架构和原理的客观描述,主观判断较少。
----Apache Doris 部署介绍一、软硬件要求Doris 运行在 Linux 环境中,推荐 CentOS 7.x 或者 Ubuntu 16.04 以上版本,同时你需要安装 Java 运行环境, 二、生产/测试环境节点配置建议Apache Doris官方建议开发测试环境和生产环境节点的配置如下:开发测试环境:模块CPU内存磁盘网络实例数量Frontend8核+8GB+SSD或SATA,10GB+ Apache Doris的性能与节点数量及配置正相关,官方建议生产环境中部署Doris使用10~100台左右的机器来充分发挥Doris性能,其中3台部署FE(HA),剩余的部署BE。 图片调大vm.max_map_count值在部署Apache Doris时,从1.2.0版本往后,需要在部署BE的节点上调大单个JVM进程的虚拟机内存区域数量值以支撑更多的线程,BE 启动脚本会通过/proc 五、网络需求Doris 各个实例直接通过网络进行通讯。
1.权限管理 Doris 新的权限管理系统参照了 Mysql 的权限管理机制,做到了行级别细粒度的权限控制,基于角色的权限访问控制,并且支持白名单机制。 角色 Role Doris可以创建自定义命名的角色。角色可以被看做是一组权限的集合。新创建的用户可以被赋予某一角色,则自动被赋予该角色所拥有的权限。 一些说明 Doris 初始化时,会自动创建如下用户和角色: operator 角色:该角色拥有 Node_priv 和 Admin_priv,即对Doris的所有权限。 Doris: skip_localhost_auth_check = true 登陆后,可以通过 SET PASSWORD 命令重置密码。 最佳实践 这里举例一些 Doris 权限系统的使用场景。 场景一 Doris 集群的使用者分为管理员(Admin)、开发工程师(RD)和用户(Client)。
Apache Doris提供了一个简单的UI页面,可以查看Doris当前状态: http://10.17.12.160:8030/ http://10.17.12.160:8030/backend
在过去多个版本中,Apache Doris 持续加深与数据湖的融合,当前已演进出一套成熟的湖仓一体解决方案。 自 0.15 版本起,Apache Doris 引入 Hive 和 Iceberg 外部表,尝试在 Apache Iceberg 之上探索与数据湖的能力结合。 Apache Doris。 Apache Doris + Apache Hudi Apache Hudi 是目前最主流的开放数据湖格式之一,也是事务性的数据湖管理平台,支持包括 Apache Doris 在内的多种主流查询引擎。 Doris 与 Apache Hudi 快速搭建测试 / 演示环境的详细指南,后续我们还将陆续推出 Apache Doris 与各类主流数据湖格式及存储系统构建湖仓一体架构的系列指南,欢迎持续关注。
亲爱的社区小伙伴们,Apache Doris 2.0.15 版本已于 2024 年 9 月 30 日正式与大家见面,该版本提交了 157 个改进项以及问题修复,进一步提升了系统的性能及稳定性,欢迎大家下载体验 立即下载:https://doris.apache.org/download GitHub 下载:https://github.com/apache/doris/releases/tag/2.0.15
BE 节点的扩容和缩容过程,不影响当前系统运行以及正在执行的任务,并且不会影响当前系统的性能。数据均衡会自动进行。根据集群现有数据量的大小,集群会在几个小时到1天不等的时间内,恢复到负载均衡的状态。
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景 基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用 本文将介绍如何使用 Apache Doris Routine Load 将 AutoMQ 中的数据导入 Doris。详细了解 Routine Load 请参考 Routine Load 基本原理文档。 01环境准备1.1 准备 Apache Doris 和测试数据 确保当前已准备好可用的 Apache Doris 集群。 02创建 Routine Load 导入作业 在 Apache Doris 的命令行中创建一个接收 JSON 数据的 Routine Load 作业,用来持续导入 AutoMQ Kafka topic
亲爱的社区小伙伴们,Apache Doris 2.1.10 版本已正式发布。2.1.10 版本对湖仓一体、半结构化数据类型、查询优化器、执行引擎、存储管理进行了若干改进优化。欢迎大家下载使用。 ,ST_Disjoint,ST_Touches支持 years_of_week 函数湖仓一体Hive Catalog 支持 Catalog 级别的分区缓存开关控制更多详情,可参考文档:https://doris.apache.org Config.max_distribution_pruner_recursion_depth 时,不执行分桶裁剪,以提升规划速度存储管理减少日志和改进部分日志其他避免 Thrift RPC END_OF_FILE 异常Bug 修复01 湖仓一体修复某些情况下,在 Hive 侧新建表,Doris
深入了解Apache Doris一、Apache Doris介绍Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果 2022 年 6 月,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Apache 顶级项目(Top-Level Project,TLP)。 Apache Doris官网https://doris.apache.orgMPP:Massively Parallel Processing ,大规模并行处理。 ,由于与国外数据库厂商重名,因此选择用回最初 Doris 名字,这就是 Apache Doris 的由来。 二、Apache Doris使用场景如下图所示,数据源经过各种数据集成和加工处理后,通常会入库到实时数仓Doris 和离线湖仓(Hive, Iceberg, Hudi 中),Apache Doris 被广泛应用在以下场景中
基于 Apache Doris 在读写流程、副本一致性机制、 存储机制、高可用机制等方面的常见疑问点进行梳理,并以问答形式进行解答。 Q6:Doris 有哪些索引?目前 Doris 主要支持两类索引:内建的智能索引,包括前缀索引和 ZoneMap 索引。 索引等Doris 没有 Global Index。 作者介绍隐形(邢颖) 网易资深数据库内核工程师,毕业至今一直从事数据库内核开发工作,目前主要参与 MySQL 与 Apache Doris 的开发维护和业务支持工作。 从 2023 年起加入 Apache Doris 社区,Apache Doris Active Contributor,已为社区提交并合入数十个 Commits。
Apache Kylin 和 Apache Doris 都是优秀的开源OLAP系统,本文将全方位地对比Kylin和Doris。 本文对Apache Doris的理解基于官方文档和论文的阅读,代码的粗浅阅读和较深入地测试。 注: 本文的对比基于Apache Kylin 2.0.0 和Apache Doris 0.9.0。 1.2 What is Doris Doris是一个MPP的OLAP系统,主要整合了Google Mesa(数据模型),Apache Impala(MPP Query Engine)和Apache ORCFile 下面我们来看下Doris Segment文件的具体格式,Doris文件格式主要参考了Apache ORC。 14 总结 本文从多方面对比了Apache Kylin和Apache Doris,有理解错误的地方欢迎指正。本文更多的是对两个系统架构和原理的客观描述,主观判断较少。
然后,数据将从 Kafka 传递到 Apache Doris,后者作为存储和计算引擎。 对于首次分段,Apache Doris 将根据任务条件执行即席查询。在后续的分段任务中,Apache Doris 将进行微批量滚动并计算与之前生成的用户组数据包相比的差异集,并将任何更新通知下游平台。 (这是通过 Apache Doris 中的位图函数实现的。) 在这个以Doris为中心的用户细分过程中,我们不需要预先定义新的标签。相反,标签可以根据任务条件自动生成。 另外,由于明细数据和用户组数据包都在 Apache Doris 中,我们不必关心多个组件之间的读写复杂性。 最后,我想与大家分享一些我们第一次与 Apache Doris 社区交谈时最感兴趣的事情: Apache Doris 支持数据摄取事务,因此可以确保数据只写入一次。
GitHub下载:https://github.com/apache/doris/releases官网下载:https://doris.apache.org/download新增功能AI&Search添加倒排索引
导读 本文主要分享 Doris BE 宕机异常分类、BE Crash 排查和BE OOM 分析。 一、背景介绍 在实际线上生产环境中,大家可能遇到过BE 宕机的问题,Apache Doris 的BE部分是由C++编写,当出现一些内存越界,非法访问的问题时会导致BE进程的Crash,同时也比较难排查, 手动配置 Service 自动拉起:服务自动拉起 - Apache Doris 3. 首先可以参考官网OOM的分析以及memtracker如何看: BE OOM分析 - Apache Doris: https://doris.apache.org/zh-CN/docs/admin-manual _highlight=oom#%E5%86%85%E5%AD%98%E5%88%86%E6%9E%90 内存跟踪器 - Apache Doris: https://doris.apache.org/zh-CN
亲爱的社区小伙伴们,Apache Doris 2.0.12 版本已于 2024 年 6 月 27 日正式与大家见面,该版本提交了 99 个改进项以及问题修复,欢迎大家下载体验。 官网下载: https://doris.apache.org/download/GitHub 下载: https://github.com/apache/doris/releases行为变更不再将建表的默认注释设置为表的类型
Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。 Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。 Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。 令您的数据分析工作更加简单高效 Apache Doris架构主要包含: FE、BE、Broker三个组件, 各个组件之间的通信关系如下: 各个组件和端口作用描述如下: FE 也叫frontend, RPC端口 Doris基于thrift, 开放了RPC服务, 用于FE、BE、Broker之间数据传递 Edit Log Port FE用于记录可回放的日志, 帮助FE在异常宕机后恢复元数据 Http
物化视图仍可参与透明查询重写创建MTMV支持基于视图创建MTMV刷新支持多PCT表物化视图包含窗口函数时,支持窗口函数重写Lakehouse新增DorisCatalog,该功能允许用户通过Catalog能力关联多个独立的Doris 解决Doris集群间数据无法关联查询的问题。支持通过rewrite_data_files方法对Iceberg表进行compaction操作。 支持直接映射Hive、Iceberg、Paimon、JDBC外表中的binary类型到Doris的varbinary类型。请参阅各Catalog文档的【列映射】小节。
亲爱的社区小伙伴们,Apache Doris 2.1.8 版本已于 2025 年 01 月 24 日正式发布。 立即下载:https://doris.apache.org/downloadGitHub 下载:https://github.com/apache/doris/releases/tag/2.1.8-rc01
亲爱的社区小伙伴们,Apache Doris 2.1.5 版本已于 2024 年 7 月 24 日正式发布。 官网下载:https://doris.apache.org/GitHub 下载:https://github.com/apache/doris/releases/tag/2.1.5-rc02行为变更JDBC #36887ES Catalog 将 ES 的 NESTED 或者 OBJECT 类型映射成 Doris JSON 类型。 参考文档:https://doris.apache.org/docs/sql-manual/sql-statements/Data-Manipulation-Statements/Manipulation https://github.com/apache/doris/pull/37786修复 sleep 函数在输入非法值时 BE Core 的问题。